优先经验重播(ER)已被经验证明可以提高许多领域的样本效率,并引起了极大的关注。但是,几乎没有理论上的理解,为什么这种优先的抽样有助于其局限性。在这项工作中,我们深入研究了优先的ER。在有监督的学习环境中,我们显示了基于错误的优先采样方法,用于平方误差和均匀采样,用于立方功率损失。然后,我们提供理论上的见解,说明为什么在早期学习过程中均匀抽样时它会提高收敛速度。基于洞察力,我们进一步指出了优先ER方法的两个局限性:1)过时的优先级和2)样品空间的覆盖范围不足。为了减轻局限性,我们提出了基于模型的随机梯度Langevin动力学采样方法。我们表明,我们的方法确实提供了分布的状态,该状态接近通过Brute-Force方法估计的理想优先采样分布,该分布没有两个局限性。我们对离散和连续控制问题进行实验,以显示我们的方法的功效,并检查我们方法在自主驾驶应用中的实际含义。
translated by 谷歌翻译